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VERFAHREN UND VOORICHTUNG ZUR BEARBEITUNG EINBS SPRACHSIGNALS FUR DIE ROBUSTE 
S PRACHERKENNUNG 



5 Die Erfindung betrifft ein Verfahren und eine Vorricbtung zur 
Bearbeitung eines Spr a ch signals,, welches Rauschen aufweist, 
fur eine anschlieBende Spracher kennung . 

Spracherkennung wird in zunehmendem Mafie eingesetzt, urn die 
10 Bedienung von elektrischen Geraten zu erleichtern. 

Um eine Spracherkennung zu ermbglichen, muss ein sogenanntes 
akustisches Modell erstellt werden. Dazu werden 
Sprachkommandos trainiert, was beispielsweise - fur den Fall 
einer sprecherunabhangigen Spracherkennung -schon werkseitig 
15 erfolgen kann. Unter Training versteht man dabei, dass auf 
der Basis von mehrfachem Sprechen eines Sprachkommandos 
sogenannte, das Sprachkommando beschreibende, 

Merkmalsvektoren erstellt werden. Diese Merkmalsvektoren (die 
auch Prototypen genannt werden) werden dann in dem 
20 akustischen Modell , beispielsweise einem sogenannten HMM 
(Hidden Markov Modell) gesammelt. 

Das akustische Modell dient dazu einer gegebenen Folge von 
aus dem Vokabular ausgewahlten Sprachkommandos bzw. Wortern 
die Wahrscheinlichkeit der beobachteten Merkmalsvektoren 
25 (wahrend der Erkennung) zu ermitteln . 

Zur Spracherkennung bzw. Erkennung der fliefienden Sprache 
wird neben einem akustischen Modell auch ein sogenanntes 
Sprachmodell benutzt, das die Wahrscheinlichkeit des 
30 Aufeinanderfolgens einzelner Worter in der zu erkennenden 
Spr a che angib t . 

Ziel von derzeitigen Verbesserungen bei der Spracherkennung 
ist es, nach und nach bessere Spracherkennungsraten zu 
35 erzielen, d.h. die Wahrscheinlichkeit zu erhohen, dass ein 
von einem Benutzer des mobilen Kommunikationsgerats 
gesprochenes Wort oder Sprachkommando auch als dieses erkannt 
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wird. 

Da diese Spracherkennung vielseitig eingesetzt wird, erfolgt 
die Benutzung auch in Dmgebungen, die durch Gerausch gestort 
sind. In diesem Fall sinken die Spracherkennungsraten 
5 drastisch, da die im akustischen Modell, beispielsweise dem 
HMM befindlichen Merkmalsvektoren auf Basis von reiner, d.h. 
nicht mit Rauschen behafteter Sprache erstellt wurden . Dies 
fiihrt zu einer unbef riedigenden Spracherkennung in lauten 
Umgebungen, wie etwa auf der StraBe, in viel besuchten 
10 Gebauden oder auch im Auto. 

Ausgehend von diesem Stand der Technik ist es Aufgabe der 
Erfindung, eine Moglichkeit zu schaffen, Spracherkennung auch 
in gerauschbehaf te ten Umgebungen mit einer hohen 
15 Spracherkennungsrate durchzuf tihren . 

Diese Aufgabe wird durch die unabhangigen Anspruche gelost. 
Vorteilhafte Weiterbildungen sind Gegenstand der abhangigen 
Anspruche . 

20 

Es ist Kern der Erfindung, dass eine Verarbeitung des 
Sprachsignals stattfindet, bevor dieses beispielsweise einer 
Spracherkennung zugefiihrt wird. Im Rahmen dieser Verarbeitung 
erf^hrt das Sprachsignal eine Gerauschunterdruckung. 
25 Anschliefiend wird das Sprachsignal hinsichtlich seine 

Signallevels bzw. Signalpegels normiert. Das Sprachsignal 
umf asst hierbei ein Oder mehrere Sprachkommandos . 

Dies hat den Vorteil, dass die Spracherkennungsraten fiir ein 
30 Sprachkommando bei einem derart vorverarbeiteten Sprachsignal 
mit gerauschbehaf teter Sprache signifikant ho her sind als bei 
einer herkommlich Spracherkennung mit gerauschbehaf teten 
Sprachsignalen . 

35 Optional kann das Sprachsignal nach der Gerauschunterdruckung 
auch einer Elnheit zur Bestimmung der Sprachaktivit&t 
zugefiihrt werden. Aufgrund dieses ger&uschreduzierten 
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Sprachsignals wird dann festgestellt ob Sprache oder eine 
Sprachpause vorliegt. In Abhangigkeit davon wird der 
Normierungsfaktor fur eine Signal levelnormie rung f estgelegt . 
Insbesondere kann der Normierungsfaktor so festgelegt werden, 
5 dass Sprachpausen starker unterdriickt werden. Damit wird der 
Unterschied zwischen Sprachsignalabschnitten, in denen 
Sprache vorliegt und solchen, in denen keine vorliegt 
(Sprachpausen), noch deutlicher. Dies erleichtert eine 
Spracherkennung . 

10 

Ein Verfahren mit den oben beschriebenen Merkmalen kann auch 
bei sogenannten verteilten Spracherkennungssysteraen 
angewendet werden. Ein verteiltes Spracher kennungs system ist 
dadurch gekennzeichnet, dass nicht alle Schritte im Rahmen 

15 der Spracherkennung in derselben Komponente durchgeftthrt 

werden. Es ist also mehr als eine Komponenten erf orderlich. 
Beispielsweise kann es sich bei einer Komponente urn ein 
Kommunikationsgerat und bei einer weiteren Komponente urn ein 
Element eines Kommunikationsnetzwerkes handeln. Hierbei 

20 findet beispielsweise die Sprachsignalerf assung bei einem als 
Mobilstation ausgestalteten Kommunikationsgerat statt, die 
eigentliche Spracherkennung dagegen in dem 
Kommunikationsnetzwerk-Element netze-seitig. 

25 Dieses Verfahren lasst sich sowohl bei der Spracherkennung 

anwenden, als auch bereits bei der Erstellung des akustischen 
Modells, beispielsweise eines HMM's. Eine Anwendung bereits 
bei der Erstellung von akustischen Modellen_zeigt in 
Zusammenhang mit einer Spracherkennung, die auf einem 

30 erf indungsgema.fi vorverarbeiteten Signal basiert, eine weitere 
Erhohung der Spracherkennungsrate . 

Weitere Vorteile werden anhand ausgewahlter 
Ausftihrungsbeispiele dargestellt, die auch in den Figuren 
35 abgebildet sind. 

Es zeigen : 
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Fig.l: E±n Histogramm, in dem Sprachsignale, die ein 

Oder mehrere Sprachkommandos enthalten, 
gegenuber ihrem Signallevel aufgetragen sind, 
fiir den Fall eines Trainings zur Erstellung 
5 eines akustischen Modells; 

Fig. 2: Ein Histogramm von Sprachsignalen gegenuber 

ihrem Signallevel fiir den Fall einer 
Spracherkennung; 

Fig. 3: Eine schematische Ausgestaltung einer 
10 erf indungsgemafien Verarbeitung; 

Fig* 4: Ein Histogramm, in dem das gerauschreduzierte 

und sprachlevelnormierte Sprachsignal gegen 
den Sprachsignal level aufgetragen ist; 

Fig. 5 Ein Histogramm, in dem das gerauschreduzierte 
15 Sprachsignal gegenuber dem Signallevel 

aufgetragen ist; 

Fig. 6 Ein Histogramm, in dem das Sprachsignal im 

Training erf indungsgemafi vorverarbeitet wird; 

Fig. 7 Das Schema einer verteilten 
2 0 Sprachverarbeitung; 

Fig. 8 Ein elektrisches Gerat, welches im Rahmen 

einer verteilten Sprachverarbeitung einsetzbar 
ist . 



In Fig. 8 ist ein als Mobiltelefon bzw. Mobilstation MS. 
ausgebildetes elektrisches Gerat dargestellt. Es verfugt uber 
ein Mikrofon M zur Aufnahrae von Sprachkommandos en thai tender 
Sprachsignale, eine Prozessoreinheit CPU zur Verarbeitung der 
30 Sprachsignale und eine Fun kschnitts telle FS zum Ubermitteln 
von Daten, beispielsweise verarbeiteten Sprachsignalen. 



35 



Das elektrische Gerat kann allein oder im Zusammenhang mit 
anderen Komponenten eine Spracherkennung bezuglich des 
aufgenommenen bzw. erfassten Sprachkommandos realisieren. 
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Es sollen nun zunachst eingehende Untersuchungen dargestellt 
werden, die zur Erfindung gefuhrt haben: 

In Fig. 1 ist ein Histogramm zu sehen, in dem Sprachsignale, 
5 welche eines Oder mehrere Sprachkommandos enthalten, 

beziiglich ihres Signallevels L sortiert wurden und diese 
Haufigkeit H gegenuber dem Signallevel bzw. -pegel I, 
aufgetragen wurde. Dabei enthalt ein Sprachsignal S, wie es 
z.B. in den folgenden Figuren bezeichnet wird, ein oder 

10 mehrere Sprachkommandos. Zur Vereinf achung sei im Folgenden 
angenommen, dass das Sprachsignal ein Sprachkommando 
enthalte. Ein Sprachkommando kann beispielsweise bei einem 
als Mobiltelefon ausgestalteten elektrischen Gerat durch die 
Aufforderung "Anruf" sowie optional einem bestimmten Namen 

15 gebildet werden. Ein Sprachkommando muss bei einer 

Spracherkennung trainiert_werden, d.h. auf Basis eines 
oftmaligen Sprechens des Sprachkommandos wird ein 
Merkmalsvektor oder werden mehrere,- d-h. mehr als ein, 
Merkmalsvektoren erstellt. Dieses Training findet im Rahmen 

20 der Erstellung des akustischen Modells, beispielsweise des 

HMM's statt, welches bereits herstellerseitig erfolgt. Diese 
Merkmalsvektoren werden spater zur Spracherkennung 
herangezogen . 

25 Das Training von Sprachkommandos, welches zur Erstellung von 
Merkmalsvektoren dient, wird auf einem festgelegten 
Signallevel bzw. Lautstarkepegel durchgeftihrt < "Single Level 
Training") . Urn den dynamischen Bereich des AD-Wandlers zum 
Umwandeln des Sprachsignals in ein digitales Signal optimal 

30 auszunutzen, wird vorzugsweise bei -26 dB gearbeitet. Die 
Festlegung auf Dezibel (dB) ergibt sich aus den fur den 
Signallevel zur Verfugung stehenden Bits. So wurde 0 dB einen 
Oberlauf bedeuten (also ein Oberschreiten der maximalen 
Laut stfirke bzw. des maximalen Pegels ) . Alternativ kann 

35 anstelle eines "Single Level Trainings" auch ein Training auf 
mehreren Signallevels, beispielsweise bei -16, -26 und -36 
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dB durchgefuhrt werden. 

In Fig. 1 ist hierbei die Hauf igkeitsverteilung des 
Sprachlevels bei einem Sprachkommando fur ein Training zu 
5 sehen. 

Es ergeben sich fur ein Sprachkommando ein mittlerer 
Signalwert X^ean sowie eine gewisse Verteilung der Levels des 
Sprachsignals. Dies kann als eine Gauss-Funktion rait dem 
10 mittleren Signallevel X^an und einer Varianz a dargestellt 
werden . 

Nachdem in Fig. 1 die Verteilung der Sprachkommando s fur eine 
Trainingssituation zu sehen ist, ist in Fig. 2, welche 

15 wiederum die Haufigkeit H gegenuber dem Signallevel L 
entsprechend Fig. 1 angibt die Situation bei einer 
Spracherkennung dargestellt: Es ist hier das Sprachsignal S' 
mit einem Oder mehreren Sprachkommandos, wie es in den 
nachf olgenden Figuren bezeichnet wird, hinsichtlich seines 

20 Signallevels L sortiert und die Haufigkeit H auf getragen . 

Aufgrund von Umgebungseinf lussen ergibt sich auch nach einer 
bereits angewendeten Gerauschunterdrttckung NR (vgl. Fig. 3) 
eine gegenuber der Trainingssituation in Fig. 1 verschobene 
Verteilung mit einem neuen, gegenuber dem Mittelwert X mean im 

25 Training verschobenen mittleren Signallevel x mean - 

Es hat sich in Untersuchungen erwiesen, dass die 
Spracherkennungsrate aufgrund dieses verschobenen mittleren 
Signallevels x me an drastisch zuruckgeht. 

30 

Dies ist aus der nachf olgenden Tabelle 1 zu ersehen: 

Tabelle 1: Training mit reiner ("clean") Sprache 
verschiedener Lautstarkestuf en bzw. Signallevel (Multi- 
35 Level) . 

Die Spracherkennungsraten beziehen sich auf Testsprache, die 
auf die Signallevel -16, -26, -36 dB normalisiert wurde . 
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99.11 
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85.66 
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76.66 



99.19 



91.35 



99.35 



85.00 



99.39 



85.05 



99.21 



82.41 



99.28 



89.41 



99.57 



85.47 



5 In Tabelle 1 ist die Spracherkennungsrate bzw. 

Worterkennungsrate fur verschiedene Gerauschumgebungen 
aufgeftthrt, wobei ein Training mit gerauschfreier Sprache 
("Clean Speech") verschiedener Lautstarke stattgef unden hat. 
Die Testsprache, also das Sprachsignal aus Fig. 1 wurde auf 

10 drei unterschiedliche Levels bzw. Pegeln bei -16 dB, -26 dB 
und -36 dB normiert. Fur diese unterschiedlichen 
Testsprachenergielevel sind die Spracherkennungsraten fiir 
unterschiedliche Arten von Gerauschen mit einem Gerauschpegel 
von 5 dB aufgezeigt. Bei den unterschiedlichen Gerauschen 

15 handelt es sich urn typische Umgebungsgerausche wie etwa U- 

Bahn bzw. "subway" , sogenanntes Babble Noise, d.h. z.B. eine 
Caf eteria-Umgebung mit Sprache und anderen Gerauschen, das 
Hintergrundgerausch in einem Auto bzw. "car", sowie eine 
Ausstellungsumgebung bzw. "exhibition", (d.h. ahnlich wie 

20 Babble Noise nur schlimmer evtl . mit Durchsagen, Musik usw. ) . 
Aus der Tabelle 1 ist ersichtlich, dass die Spracherkennung 
bei gerauschfreier Sprache weitgehend unbeeinf lusst ist von 
Variationen im Testspracheenergielevel . Allerdings ist fiir 
gerauschbehaf tete Sprache signifikanter Abfall der 

25 Spracherkennung zu erkennen. Zur Spracherkennung wurde 
hierbei die weiter unten beschriebene terminalbasierte 
Vorverarbeitung AFE, die zur Erstellung der Merkmalsvektoren 
dient, herangezogen . 

30 Bei den in Tabelle 1 untersuchten Spracherkennungsraten - die 
gleichwohl nicht befriedigend sind- ist die Situation dennoch 
gegenuber einer Spracherkennung basierend auf einem Training 
mit nur einer Lautstarkenstufe wesentlich verbessert- 
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In anderen Worten, der Effekt, den ein Umgebungsgerausch auf 
ein akustisches Modell hat, das auf Basis nur einer 
Lautstarke der Trainingssprache erstellt wurde, ist noch 
deutlicher verschlecht ernd . 

5 

Dies hat zu den im folgenden dargestellten erfindungsgemafien 
Verbesserungen gefuhrt: 

10 In Fig* 3 ist nun der Ablauf gemafi einer Ausftihrungsform der 
Erfindung dargestellt. Das Sprachkommando bzw. Sprachsignal 
S, z.B. ein von einem Menschen gesprochenes Wort erfahrt eine 
Gerauschunterdriickung NR. Nach dieser Gerauschunterdruckung 
NR liegt ein gerauschunterdrucktes Sprachsignal S T vor. 

15 

Das gerauschreduzierte Sprachsignal S* wird anschliefiend 
einer Signallevelnormierung bzw. Normierung des Signalwertes 
SLN unterzogen. Diese Normierung dient zur Herstellung eines 
Signalwertes, der mit dem mittleren Signalwert, der in Fig* 1 
20 mit Xaean gekennzeichnet ist, vergleichbar ist. Es hat sich 
herausgestellt, dass bei vergleichbar en Signalmittelwerten 
hohere Spracherkennungsraten erzielt werden. Das heifit, dass 
durch diese Verschiebung des Signalwertes die 
Spracherkennungsrate bereits erhdht wird, 

25 

Im Anschluss an die Signalwertnormierung SLN liegt ein 
normiertes und gerauschreduziertes Sprachsignal S'* vor. Dies 
kann im Folgenden z.B. bei einer Spracherkennung SR mit einer 
hoheren Spracherkennungsrate auch bei einer urspriinglich mit 
30 Rauschen behafteten Testsprache, verwendet werden. 

Optional wird das gerauschreduzierte Signal S 1 auf gespalten 
und flieBt neben der Signalwertnormierung SLN auch einer 
Sprachaktivitatsbestimmungseinheit bzw. "Voice Activity 
35 Detection" VAD zu. In Abhangigkeit davon, ob Sprache oder 

eine Sprachpause vorliegt, der Normierungswert, mit dem das 
gerauschreduzierte Sprachsignal S' normiert wird, eingestellt 
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werden. Beispielsweise kann in Sprachpausen ein kleinerer 
multiplikativer Normierungsf aktor verwendet werden, wodurch 
der Signallevel des gerauschreduzierten Sprachsignals S 1 in 
Sprachpausen starker reduziert wird, als wahrend des 
5 Vorliegens von Sprache . Damit ist eine starkere 

Onterscheidung zwischen Sprache, also z.B. einzelnen 
Sprachkommandos, und Sprachpausen moglich, was eine 
nachgeschaltete Spracherkennung hinsichtlich der 
Spracherkennungsrate weiter deutlich verbessert. 

10 

Weiterhin ist es vorgesehen, den Normierungsf aktor nicht nur 
zwischen Sprachpausen und Sprachabschnitten zu verandern, 
sondern auch innerhalb eines Wortes fur unterschiedliche 
Sprachabschnitte zu variieren. Auch dadurch kann die 
15 Spracherkennung verbessert werden, da einige Sprachabschnitte 
aufgrund der in ihnen enthaltenen Phoneme einen sehr hohen 
Signallevel, beispielsweise bei Plosivlauten (z.B. p) , 
aufweisen, wahrend andere eher inharent leise sind. 

20 Fur die Signallevelnormierung werden unterschiedliche 

Methoden herangezogen, beispielsweise eine Echt-Zeit-Energie- 
Normalisierung, wie sie im Artikel "Robust Endpoint Detection 
and Energy Normalisation for Real-Time Speech and Speaker 
recognition" von Qi Li et al . in IEEE Transactions on Speech 

25 and Audio Processing Vol. 10, No. 3, Marz 2002 im Abschnitt C 
(S. 149-150) beschrieben wird. Im Rahmen der ITU wurde 
weiterhin eine Signallevelnormierungsmethode beschrieben, die 
unter ITU-T, V *SVF56: The Speech Voltmeter 1 in Software 
Tool Library 2000 User's Manual, Seiten 151-1 61 r Genf, 

30 Schweiz, Dezember 2000 zu finden ist. Die dort beschriebene 
Normierung arbeitet "off-line" bzw. in ein em sogenannten 
"Batch-Modus", d.h. nicht zeitgleich bzw. zeitnahe mit der 
Spracher f assung . 

35 Fur die Gerauschreduktion bzw. Gerauschunterdruckung NR (vgl. 
Fig. 3) sind ebenfalls verschiedene bekannte Methoden 
vorgesehen, beispielsweise im Frequenzraum operierende 
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Methoden. Eine solche Methode ist In "Computationally 
efficient speech enhancement using RLS and psycho-acoustic 
motivated algorithm" von Ch. Beaugeant et al . in Proceedings 
of 6th World Multi-conference on Systemics, Cybernetics and 
5 Informatics, Orlando 2002 beschrieben. Das dort beschrieben 
System basiert auf einem Analyse-durch-Synthese System, bei 
dem rahmenweise rekursiv die das (reine) Sprachsignal und das 
Rauschsignal beschreibende Parameter extrahiert werden (vgl. 
dort Abschnitt 2 "Noise Reduction in the Frequency Domain", 

10 Abschnitt 3 "Recursive implementation of the least square 
algorithm") . Das so erhaltene reine Sprachsignal wird 
weiterhin gewichtet (Vgl. Abschnitt 4 "Practical RLS 
Weighting Rule") und eine Schatzung der Leistung des 
Rauschsignals erfolgt (Vgl. Abschnitt 5 "Noise Power 

15 Estimation") . Optional kann eine Verfeinerung des erhaltenen 
Resultats mittels psychoakustisch motivierter Methoden 
erfolgen (Abschnitt 6: "Psychoacoustic motivated method") . 
Weitere Gerauschreduktionsmethoden, die gemafi einer 
Ausfuhrungsf orm nach Fig. 3 herangezogen werden konnen sind 

20 beispielsweise in ETSI ES 202 0505 VI. 1.1 vom Oktober 2002 in 
Abschnitt 5.1 ("Noise Reduction") beschrieben. 

Ein in Bezug auf Gerauschunterdruckung NR und 

Signallevelnormierung SN unbearbeitetes Sprachsignal S liegt 

25 den Hauf igkeitsverteilungen in den Fig. 1 

(Trainings situation) und 2 (Testsituation, d.h. fur eine 
Spracherkennung) zugrunde. Das gerauschreduziert Sprachsignal 
S' liegt der Hauf igkeitsverteilung in der Figur 5 zugrunde. 
Das gerauschreduzierte und signal levelnormierte Signal liegt 

30 den Verteilungen in den Figuren 4 (Testsituation) und 5 
(Trainingssituation) zugrunde . 

Die zugrundeliegende Idee des in Fig. 3 gezeigten, 
schematischen Ablaufes einer Sprachsignalverarbeitung zu 
35 einer nachgeordneten Spracherkennung ist in den Figuren 4 bis 
6 dargestellt. 
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In Fig. 5 ist eine Hauf igke its vertei lung fur ein 
gereiuschreduziertes Sprachsignal S' dargestellt, wie es z.B. 
in Fig. 3 nach der Gerauschunterdruckung NR auftritt. 
Gegenuber Fig. 2, die sich z.B. auf die H£uf igkeitsverteilung 
5 fur ein in Fig. 3 daxgestelltes Sprachsignal S bezieht, 

wurde also nach eine Gerauschunterdriickung NR durchgef xihrt . 

Das Zentrum der Hauf igkeitsverteilung dieses 
gerauschreduzierten Sprachsignals S ' gegenuber dem 

10 Sprachlevel li befindet sich bei einem Mittelwert x mean 1 . Die 
Verteilung hat eine breite o' . Im Obergang zu Fig. 4 wird auf 
das in Fig. 5 dargestellte gerauschreduzierte Sprachsignal S f 
eine Signallevelnormierung SLN durchgef iihrt . Damit wiirde das 
der Verteilung in Fig. 4 zugrundeliegende Sprachsignal 

15 beispielsweise dem gerauschreduzierten und 

signallevelnormierten Sprachsignal S'' entsprechen. 
Eine Signallevelnormierung bringt den tatsachlichen 
Signallevel in Fig. 5, auf einen gewunschten Signallevel, 
beispielsweise den in Fig. 1 mit X me0 n gekennzeichneten, im 

20 Training erzielten Signallevel. Weiterhin fiihrt die 

Signallevelnormierung SI*N dazu, dass die Verteilung schntaler 
wird, d.h. also dass a' f kleiner ist als a'. Dadurch kann der 
mittlere Signallevel Xmean' ' in Fig. 4 leichter mit dem 
mittleren Signallevel Xmean in Fig. 1, welcher im Training 

25 erzielt wurde, zur Deckung gebracht werden. Dies fiihrt zu 
hoheren Spracherkennungsraten . 

Im Zusammenhang mit Fig. 7 wird nun auf eine Anwendung des 
30 oben erlauterten fur eine Spracherkennung eingegangen. 

Wie bereits eingangs dargelegt, kann die Spracherkennung in 
einer Komponente Oder auf mehrere Komponenten verteilt 
stattf inden . 

35 Beispielsweise kSnnen sich in einem elektrischen Gerat MS, 

welches als Mobilstation ausgebildet ist, Mittel zum Erfassen 
des Sprachsignal, z.B. das in Fig. 8 gezeigt Mikrofon M, 
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Mittel zur Gerauschunterdriickung NR und Mittel zur 
Signallevelnormierung SN befinden. Letztere konnen im Rahitien 
der Prozessoreinheit CPU realisiert werden. Damit kann die in 
Fig. 3 dargestellte Idee einer Sprachsignalverarbeitung gemaB 
5 einer Ausfiihrungsform der Erfindung sowie die sich 

anschliefiende Spracherkennung in einem Mobil funkger at bzw. 
Mobilstation allein oder im Zusammenhang mit einem Element 
eines Kommunikationsnetzes implementiert werden. 

10 Gemafi einer der Alternativen erfolgt die Spracherkennung SR 
(siehe Fig. 3) selbst netz-seitig. Dazu werden die aus einem 
Sprachsignal S ,f erstellten Merkmalsvektoren uber einen 
Kanal, insbesondere einen Funkkanal zu einer zentralen 
Einheit im Netz ubertragen. Dort findet auf Basis der 

15 ubertragenen Merkmalsvektoren dann die Spracherkennung auf 

Basis des insbesondere bereits werkseitig erstellten Modells 
statt. Werkseitig kann insbesondere bedeuten, dass das 
akustische Modell vom Netzbetreiber erstellt wird. 

20 Insbesondere kann die vorgeschlagene Spracherkennung auf 

sprecherunabhangige Spracherkennung,. wie sie im Rahmen des 
sogenannten Aurora Szenarios vorgenommen wird, angewendet 
werden . 

Eine weitere Verbesserung ergibt sich, wenn Sprachkommandos 
25 bereits bei der werkseitigen Herstellung des akustischen 
Modells bzw. dem Training hinsichtlich ihres Signallevels 
normiert werden. Dadurch wird namlich die Verteilung der 
Signallevel schmaler, wodurch eine noch bessere 
Obereinstimmung zwischen der in Fig. 4 gezeigten Verteilung 
30 und der im Training erzielten Verteilung erreicht wird- Eine 
solche Verteilung der Haufigkeit H gegenuber dem Signalpegel 
L bei einem Sprachkommando im Training, bei dem bereits eine 
Signallevelnormierung durchgefuhrt wurde, ist in Fig. 6 
dargestellt. Der sich ergebende Trainings-Mittelwert x m ean neu 
35 stimmt mit dem dem Mittelwert x^an ' ' (Fig. 4) der 

gerauschreduzierten und signallevelnormierten Sprachsignals 
S ,f (Fig. 3) uberein. Wie bereits dargelegt ist eine 

12 
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Ubereinstimmung cier Mittelwerte eines der Kriterien fur sine 
hone Spracher kennungsrate . Weiterhin ist die Breite der 
Verteilung in Fig. 6 sehr schmal, was es erleichtert, diese 
Verteilung mit der Verteilung in Fig. 4 zur Deckung zu 
5 bringen, d.h. auf den gleichen Signallevel zu bringen. 

In Fig. 7 ist eine verteilte Spracher kennung bzw. "Distributed 
Speech Recognition" (DSR) dargestellt . Eine verteilte 
Spracherkennung kann beispielsweise im Rahmen bereits 
10 erwcLhnten AURORA-Pro jekts der ETSI STQ (Speech Transmission 
Quality) Anwe ndung finden. 

Bei einer verteilten Spracherkennung wird bei einer Einheit 
ein Sprachsignal, beispielsweise ein Sprachkommando erf ass t 
15 und dieses Sprachsignal beschreibende Merkmalsvektoren 

erstellt. Diese Merkmalsvektoren werden zu einer anderen 
Einheit, beispielsweise einem Netzwerkserver ubertragen . Dort 
werden die Merkmalsvektoren verarbeitet und auf Basis diese r 
Merkmalsvektoren eine Spracherkennung dur chge f iihrt . 

20 

In Fig. 7 ist eine Mobilstation MS als erste Einheit bzw. 
Komponente und eine Netzwerkelement NE dargestellt. 

Die Mobilstation MS, welche auch als Terminal bezeichnet 
25 wird, weist Mittel AFE zurterminalbasierte Vorverarbeitung, 

die zur Erstellung der Merkmalsvektoren dient, . 

Beispielsweise handelt es sich bei der Mobilstation MS um ein 

Mobilfunk-EndgerSt, portablen Computern, oder ein beliebiges 

anderes mobiles Kommunikationsgerat . Bei dem Mittel AFE zur 
30 terminalbasierten Vorverarbeitung handelt es sich 

beispielsweise um das im Rahmen des AURORA-Pro jekts 

diskutierte "Advanced Front End". 

Das Mittel AFE zur terminalbasierten Vorverarbeitung umfasst 
35 Mittel zur Standardbearbeitung von Sprachsignalen. Diese 
S t a n da rd- Spr a chver ar be i tung ist beispielsweise in der 
Spezifikation ETSI ES 202050 VI. 1.1 vom Oktober 2002 in Bild 
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4.1 beschrieben. Auf Seiten der Mobilstation beinhaltet die 
Standard-Sprachverarbeitung eine Merkmalsextraktion mit den 
Schritten Gerauschreduktion, Signalform bzw. "Waveform- 
Processing", Cepstrum-Berechnung sowie elnen verdeckten 
5 Ausgleich bzw. "Blind Equalization". Anschliefiend erfolgt 
einer Merkmalskompression und eine Vorbereitung der 
Obertragung. Diese Verarbeitung ist dem Fachmann bekannt, 
weshalb hier nicht naher darauf eingegangen wird. 
GemaB einer Ausgestaltung der Erfindung umfassen die Mittel 
10 AFE zur terminalbasierten Vorverarbeitung auch Mittel zur 
Signallevenormierung und Sprachaktivitatsdetektion, damit 
eine Vorverabeitung gema£ Fig. 3 realisiert wird. 

Diese Mittel konnen in die Mittel AFE integriert oder 
15 alternativ als getrennte Komponente realisiert sein. 

Ober sich anschlieBende Mittel FC zur 

Merkmalsvektorkomprimierung terminalbasierte Vorverarbeitung 
AFE werden der eine oder die mehreren Merkmalsvektoren, 
20 welche aus dem Sprachkommando erstellt werden, zum Zwecke der 
Obertragung taber einen Kanal CH komprimiert. 

Die andere Einheit wird beispielsweise durch einen 
Netzwerkserver als Netzwerkelement NE gebildet. In diesem 
25 Netzwerkelement NS werden die Merkmalsvektoren iiber Mittel 
FDC zur Merkmalsvektordekompression wieder 

dekomprimiert .Weiterhin erfolgt Ober Mittel SSP erfolgt eine 
serverseitige Vorverarbeitung , urn dann mit Mitteln SR zur 
Spracherkennung eine Spracherkennung auf Basis eines Hidden 
30 Markov Modells HMM dur chzuf uhren . 

Die Ergebnisse von erf indungsgema&en Verbesserungen werden 
nun erlautert: Spracherkennungsraten fur verschiedene 
Trainings der Sprachkommandos sowie verschiedene Sprachlevel 
35 bzw. Lautstaxken, die zur Spracherkennung herangezogen werden 
(Testsprache) sind in den Tabellen 1 bis 2 dargestellt. 
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In Tabelle 2 sind nun die Spracherkennungsraten fiir 
unterschiedliche Energielevel der Testsprache gezeigt. Das 
Training fand auf einem Sprachenergielevel von -2 6 dB statt . 
Die Testsprache wurde einer Gerauschunterdrtickung und 
5 Sprachlevelnormalisierung gemafi Fig, 3 unterzogen. Aus 

Tabelle 2 ist zu sehen, dass die Spracherkennungsraten fiir 
reine Sprache wiederum gleichbleibend hoch sind. Die 
wesentliche Verbesserung gegeniiber dem bisherigen 
Spracherkennungsverf ahren liegt darin, dass der in Taibelle 1 

10 ersichtliche Unterschied in den Spracherkennungsraten fur 
gerauschbehaf tete Sprache (bei einem Signal zu Rauschen 
Verhaltnis bzw. "Signal-to-Noise Ratio" von 5 dB) in 
Abh&ngigkeit vom Energielevel der Testsprache aufgehoben ist, 
Fiir die Spracherkennung wurde das weiter oben beschriebene 

15 "Advanced Front End" herangezogen . 



Tabelle 2 : 





S —Babble 



Car 



5dB 




1MB* 



99.45 



83.79 



98.85 



75.63 



99.02 



86.34 



99.35 



79.67 



-26, dB: 



99.20 



84.71 



98.88 



74.37 



99.05 



87.89 



99.32 



80.56 



mm 



98.86 



84.71 



98.70 



75.00 



98.78 



87.77 



99.01 



80.47 
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Patentanspriiche 

1 . Verfahren zur Bearbeltung eines gerauschbehaf teten 
Sprachsignals (S) fur eine nachf olgende Spracherkennung (SR) , 

5 wobei das Sprachsignal (S) zumindest ein Sprachkommando 
reprasentiert, mit folgenden Schritten: 

a) Erfassen des gerauschbehafteten Sprachsignals (S) ; 

b) Anwendung einer Gerauschunterdrttckung (NR) auf das 
Sprachsignal (S) zur Generierung eines ger aus chunt er dr iickt en 

10 Sprachsignals (S 1 ); 

c) Normieren des gerSuschunterdruckten Sprachsignals (S 1 ) 
mittels eines Normierungsf aktors auf einen Soll-Signalwert 
zur Generierung eines gerauschunterdriickten, normierten 
Sprachsignals <S ' ■ ) . 

15 

2. verfahren nach Anspruch 1, bei dem der Wert des 
Normierungsf aktors in Abhangigkeit von einer Sprachaktivitat 
festgelegt wird. 

20 3. Verfahren nach Anspruch 1 oder 2, bei dem die 

Sprachaktivitat auf Basis des gerauschunterdruckten 
Sprachsignals ermittelt wird. 

4 . Verfahren nach einem der vorhergehenden Anspruche mit 
25 folgendem weiteren Schritt: 

d) Beschreiben des gerauschunterdrackten, normierten 
Sprachkommandos durch einen oder mehrere Merkmalsvektoren. 

5. Verfahren nach Anspruch 4, bei dem der eine oder die 
30 mehreren Merkmalsvektoren zum Beschreiben des 

gerauschunterdruckten, normierten Sprachkommandos erstellt 
werden . 

6. Verfahren nach einem der vorhergehenden Anspruche mit 
35 folgendem weiteren Schritt : 

e) Obermitteln eines den Merkraalsvektor oder die 
Merkmalsvektoren beschreibenden Signals. 
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7 . Verfahren nach einem der vorhergehenden Anspruche mit 
folgendem weiteren Schritt: 

5 f ) Durchfuhren einer Spracherkennung auf Basis des 
gerauschunterdruckten, normierten Sprachkoinmandos . 

8, Verfahren nach Anspruch 6 oder 1, bei dem das Erfassen der 
10 Sprachsignals in Schritt a) und das Durchftihren der 

Spracherkennung in Schritt f ) ortlich getrennt durchgefuhrt 
werden „ 

15 .9. Verfahren nach einem der vorhergehenden Anspruche, bei dem 
eine Vorverabeitung (AFE) und eine 

Merkmalsvektorkoinprimierung (FC) von Merkmalsvektoren, welche 
ein Sprachsignal beschreiben raumlich getrennt oder 
ortsgleich durchgefuhrt wird. 

20 

10. Verfahren zum Training eines Sprachkoinmandos in einem 
ger&uschbehaf teten Sprachsignal mit folgenden Schritten: 
a') Erfassen des gerauschbehaf teten Sprachsignals; 

b') Anwendung einer Gerauschunterdruckung auf das 
25 Sprachsignal zur Generierung eines gerauschunterdruckten 
Sprachsignals ; 

c*) Normieren des gerauschunterdruckten Sprachsignals mittels 
eines Normierungsf aktors auf einen Soll-Signalwert z\;r 
Generierung eines gercluschunterdruckten, normierten 
30 Sprachsignals. 

11. Verfahren nach Anspruch 10, bei dem das Training zur 
Erstellung eines akustischen Modells, insbesondere eines 
HMM ■ s dient . 

35 

12. Elektrisches Gerat (MS) mit einem Mikrofon (M) und einer 
Prozessoreinheit (CPU) , welches zur Durchfiihrung eines 
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Verfahrens nach Anspruch 1 bis 11 eingerichtet 1st, 
insbesondere zur Durchfuhrung der Scliritte a, b und c) . 

13. Vorrichtung nach AnsprUch 12 mit einer Einrichtung zur 
5 Erstellung von Mer kmal svektoren zur Beschreibung eines 

Sprachsignals - 

14. Elektrisches Gerat nach Anspruch 12 oder 13, welches als 
Koitimunikationsgerat, insbesondere Mobilstation, ausgestaltet 

10 ist, mit einer Sende/Empfangseinrichtung (FS) und einer 
Vorrichtung nach Anspruch 12 oder 13. 

15. Kommunikat ions system mit einer Mobilstation nach Anspruch 
14 und einem Kommunikationsnetz, in dem eine Spracherkennung 

15 durchgefuhrt wird. 
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